包包小窝

简介

输入期望拷贝音色的声音，然后根据文字生成该声音的语音句子

开始

项目仓库 ：GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)官方指南 ：GPT-SoVITS指南下载地址 ：语雀文档

使用方法

进入go-webui页面后，右侧按钮为分步骤，逐步进行即可。

启动

解压文件 "GPT-SoVITS-v3lora-20250228" 至英文路径。
打开文件 "go-webui.bat"（注：webUI大部分为打开一个操作网页）。

数据收集

进入webUI页面，默认位置在0-前置数据集获取工具

人声分离，若音频带背景音乐，选择模型 "HP2_all_vocals" 后转换，选择 "vocal_" 文件作为下一环节。
语音切分。
语音降噪。
语音识别。
音频标注，在text框矫正文字，若整段错误，选择右侧choose后点击顶部delete，校验后保存。

训练模型

1-GPT-soVITS-TTS

1A-训练集格式化工具，修改文本标记文件和训练集音频文件，我这里分别是 "D:_apply\AI\GPT-SoVITS\GPT-SoVITS-v3lora-20250228\output\asr_opt\denoise_opt.list" 和 "D:_apply\AI\GPT-SoVITS\GPT-SoVITS-v3lora-20250228\output\denoise_opt"。
1B-微调训练，直接点击两个按钮。
1C-推理，刷新模型路径，选择刚训练完成的模型，尽量选择数字大的。

使用模型